import pandas as pd

# 构造含重复值的示例数据
data = {
    '年份': [2020, 2021, 2021, 2020, 2022, 2021],
    '地区': ['呼和浩特', '包头', '包头', '呼伦贝尔', '鄂尔多斯', '包头'],
    '人口(万)': [2400, 2412, 2412, 2430, 2450, 2400]
    # 故意设置重复值
}
df = pd.DataFrame(data)

# 标记所有列完全相同的重复行（True表示重复）
duplicate_mask = df.duplicated()
print("完全重复的行标记：\n", duplicate_mask)

# 检查"年份+地区"组合是否重复
key_duplicates = df.duplicated(subset=['年份', '地区'],keep=False)
print("关键列组合重复的行：\n", df[key_duplicates])

df_cleaned = df.drop_duplicates()
print("删除完全重复后的数据：\n", df_cleaned)

df_cleaned_key = df.drop_duplicates(subset=['年份', '地区'],keep='last')
print("保留最后一条关键列重复的数据：\n", df_cleaned_key)
